我们检查了在未注册的逻辑回归问题上的梯度下降,并在线性可分离数据集上具有均匀的线性预测指标。我们显示了预测变量收敛到最大边缘(硬边缘SVM)解决方案的方向。结果还推广到其他单调的损失函数,在无穷大时降低了损失功能,多级问题,并在某个受限的环境中训练在深网中的重量层。此外,我们表明这种融合非常慢,只有在损失本身的融合中的对数。这可以有助于解释即使训练错误为零,并且训练损失非常小,并且正如我们所显示的,即使验证损失增加了,也可以继续优化逻辑或跨透明度损失的好处。我们的方法还可以帮助理解隐式正则化n更复杂的模型以及其他优化方法。
translated by 谷歌翻译
Even for us, it can be challenging to comprehend the meaning of songs. As part of this project, we explore the process of generating the meaning of songs. Despite the widespread use of text-to-text models, few attempts have been made to achieve a similar objective. Songs are primarily studied in the context of sentiment analysis. This involves identifying opinions and emotions in texts, evaluating them as positive or negative, and utilizing these evaluations to make music recommendations. In this paper, we present a generative model that offers implicit meanings for several lines of a song. Our model uses a decoder Transformer architecture GPT-2, where the input is the lyrics of a song. Furthermore, we compared the performance of this architecture with that of the encoder-decoder Transformer architecture of the T5 model. We also examined the effect of different prompt types with the option of appending additional information, such as the name of the artist and the title of the song. Moreover, we tested different decoding methods with different training parameters and evaluated our results using ROUGE. In order to build our dataset, we utilized the 'Genious' API, which allowed us to acquire the lyrics of songs and their explanations, as well as their rich metadata.
translated by 谷歌翻译
Dynamical systems are found in innumerable forms across the physical and biological sciences, yet all these systems fall naturally into universal equivalence classes: conservative or dissipative, stable or unstable, compressible or incompressible. Predicting these classes from data remains an essential open challenge in computational physics at which existing time-series classification methods struggle. Here, we propose, \texttt{phase2vec}, an embedding method that learns high-quality, physically-meaningful representations of 2D dynamical systems without supervision. Our embeddings are produced by a convolutional backbone that extracts geometric features from flow data and minimizes a physically-informed vector field reconstruction loss. In an auxiliary training period, embeddings are optimized so that they robustly encode the equations of unseen data over and above the performance of a per-equation fitting method. The trained architecture can not only predict the equations of unseen data, but also, crucially, learns embeddings that respect the underlying semantics of the embedded physical systems. We validate the quality of learned embeddings investigating the extent to which physical categories of input data can be decoded from embeddings compared to standard blackbox classifiers and state-of-the-art time series classification techniques. We find that our embeddings encode important physical properties of the underlying data, including the stability of fixed points, conservation of energy, and the incompressibility of flows, with greater fidelity than competing methods. We finally apply our embeddings to the analysis of meteorological data, showing we can detect climatically meaningful features. Collectively, our results demonstrate the viability of embedding approaches for the discovery of dynamical features in physical systems.
translated by 谷歌翻译
理解基于变压器的模型引起了极大的关注,因为它们是机器学习最近技术进步的核心。尽管大多数可解释性方法都依赖于输入的运行模型,但最近的工作表明,零通的方法,即直接解释参数而无需前进/向后传递,对于某些变压器参数是可行的,对于两层注意力网络是可行的。在这项工作中,我们提出了一个理论分析,其中通过将其投影到嵌入式空间(即它们操作的词汇量的空间)中来解释训练有素的变压器的所有参数。我们得出一个简单的理论框架来支持我们的论点,并为其有效性提供了充足的证据。首先,经验分析表明,可以在嵌入空间中解释审计和微调模型的参数。其次,我们提出了框架的两个应用:(a)对齐共享词汇的不同模型的参数,以及(b)通过``翻译''''''''分类器构建分类器的参数``翻译'''''''分类器的参数仅鉴定的不同模型。总体而言,我们的发现为解释方法打开了大门,至少部分地从模型细节中抽象出来,仅在嵌入空间中运行。
translated by 谷歌翻译
由于长期没有事件,处理动态数据时,陈旧问题是一个众所周知的问题。由于仅当节点参与事件时才更新节点的内存,因此其内存变为陈旧。通常,它是指缺乏社会帐户的时间停用等事件。为了克服内存的陈旧问题问题,除节点内存外,还来自节点邻居内存的信息。受此启发的启发,我们设计了一个更新的嵌入模块,该模块除节点邻居外还插入最相似的节点。我们的方法获得了与TGN相似的结果,并略有改进。这可能表明在微调我们的超参数后,尤其是时间阈值并使用可学习的相似度度量后,可能会有所改善。
translated by 谷歌翻译
人类交流越来越多地与AI产生的语言混合。在聊天,电子邮件和社交媒体中,AI系统会产生智能答复,自动完成和翻译。 AI生成的语言通常不被认为是人类语言的姿势,引起了人们对新型欺骗和操纵形式的担忧。在这里,我们研究了人类如何辨别AI产生的最个人化和结果形式之一 - 一种自我表现。在六个实验中,参与者(n = 4,650)试图识别由最先进的语言模型产生的自我表现。在专业,款待和浪漫的环境中,我们发现人类无法识别AI生成的自我表现。将定性分析与语言特征工程相结合,我们发现人类对语言的人类判断受到直观但有缺陷的启发式方法的困扰,例如将第一人称代词,真实的单词或家庭主题与人类相关联。我们表明,这些启发式方法使人类对产生的语言的判断可预测和可操纵,从而使AI系统能够产生比人类更具人类的语言。我们通过讨论解决方案(例如AI的重音或合理使用政策)来结束,以减少产生语言的欺骗潜力,从而限制人类直觉的颠覆。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
NLP基准在很大程度上主要集中在短篇文本上,例如句子和段落,即使长文本在野外占相当数量的自然语言。我们介绍卷轴,这是一套需要在长文本上推理的任务套件。我们检查现有的长文本数据集,文本自然是长期的,同时优先考虑涉及在输入上扫描信息的任务。滚动包含概述,问题应答和自然语言推理任务,包括多个域,包括文学,科学,业务和娱乐。初始基线(包括啰覆编码器),表明滚动有充足的改进空间。我们以统一的文本到文本格式提供所有数据集,并托管Live Refordboard,以促进模型架构和预用方法的研究。
translated by 谷歌翻译
我们检查了生成的对抗性网络(GANS)的可行性,从激光乐队点云生成照片逼真图像。为此目的,我们创建了一个点云图像对的数据集,并训练了GaN,以预测包含反射率和距离信息的LiDAR点云的光电型图像。我们的模型学会了如何从只需点云数据,甚至是带黑色汽车的图像来预测现实看的图像。由于其较低的反射率,黑色汽车难以直接从点云中检测。该方法可能用于将来执行关于从LIDAR点云生成的照片型图像上的视觉对象识别。除了传统的LIDAR系统之外,第二系统还将从LIDAR点云产生的光电型图像的系统将在实时同时运行视觉对象识别。通过这种方式,我们可能会保留LIDAR的至高无上,并受益于使用光学 - 现实图像进行视觉对象识别,而不会使用任何相机。此外,这种方法可用于在不使用任何相机图像的情况下着色点云。
translated by 谷歌翻译
精密医学是疾病预防,检测和治疗的临床方法,旨在考虑每个人的遗传背景,环境和生活方式。这种量身定制的大道的发展是由常规方法的可用性,大群体样本的增加以及与临床数据的集成而导致的。尽管进展巨大,但数据分析的现有计算方法无法为该复合体,高维和纵向数据提供适当的解决方案。在这项工作中,我们开发了一种称为TCAM的新方法,这是用于多向数据的维度减少技术,克服纵向常规数据的轨迹分析时克服了主要限制。使用现实世界数据,我们表明TCAM优于传统方法,以及最先进的基于卷起的纵向微生物组数据分析方法。此外,我们通过将其应用于几个不同的OMIC数据集来证明TCAM的多功能性,以及它在直接的ML任务中的替换中的适用性。
translated by 谷歌翻译